Création en boucle fermée avec l'IA

Juillet 2023

Conversation entre un humain et ChatGPT4

User
Dans le cas d’une image générée avec DALL-E et le prompt « un poisson dans l’eau dans le style des impressionnistes », DALL-E va générer une image à partir d’images disponibles dans sa base de données, comme par exemple des photos de poissons prises par des humains et des peintures impressionnistes peintes par des humains, n’est-ce pas ?

ChatGPT
Pas exactement. DALL-E n'a pas de "base de données" d'images dont il s'inspire pour créer des nouvelles images. En fait, il ne comprend pas non plus les images ou le contenu artistique de la même manière qu'un humain le fait.
DALL-E est basé sur le modèle de langage GPT-3 d'OpenAI, mais adapté pour générer des images plutôt que du texte.
Il est entraîné sur une grande quantité d'images et de descriptions textuelles correspondantes, mais il ne "se souvient" pas des images individuelles sur lesquelles il a été formé. Au lieu de cela, il apprend des schémas complexes dans les données d'entraînement qu'il utilise ensuite pour générer de nouvelles images à partir de descriptions textuelles.
Dans le cas de votre prompt « un poisson dans l'eau dans le style des impressionnistes », DALL-E utilise sa compréhension du langage naturel pour interpréter le prompt et générer une image qui correspond le mieux à cette description, en utilisant les schémas qu'il a appris lors de son entraînement. Il n'a pas une "collection" d'images de poissons ou de peintures impressionnistes sur lesquelles il se base pour créer l'image, mais génère plutôt une image à partir de zéro en fonction des modèles qu'il a appris.

De plus, il est important de noter que bien que DALL-E puisse générer des images étonnamment détaillées et précises, il ne comprend pas réellement ce qu'est un "poisson" ou le "style des impressionnistes" de la même manière qu'un humain le fait. Il s'agit simplement de générer une image qui correspond à la description en utilisant les motifs et les structures qu'il a appris lors de son entraînement.

User
Comment DALL-E est-il entrainé ?

ChatGPT
DALL-E est un modèle d'apprentissage automatique, plus spécifiquement un modèle de type Transformer, une variante de GPT-3 adaptée pour générer des images plutôt que du texte. L'entraînement d'un modèle comme DALL-E suit généralement deux étapes principales : une phase de pré-entraînement, puis une phase de fine-tuning.

Pré-entraînement
Dans cette étape, le modèle est exposé à une grande quantité d'images (et potentiellement de légendes associées à ces images). Le modèle essaie d'apprendre à prédire une partie de l'image ou du texte à partir du reste de l'image ou du texte. Il apprend ainsi à reconnaître diverses structures, motifs, couleurs et autres caractéristiques visuelles, ainsi que leur corrélation avec les descriptions textuelles. C'est durant cette phase que le modèle apprend à comprendre le contexte des images et du texte. Cependant, il est important de noter que le modèle ne "comprend" pas le contenu de la même manière qu'un humain le ferait, mais apprend plutôt à prédire les modèles d'images et de textes à partir des données d'entraînement.

Fine-tuning
Après le pré-entraînement, le modèle passe par une phase de fine-tuning, où il est entraîné sur un ensemble de données plus spécifique. Dans cette phase, le modèle apprend à générer des images à partir de descriptions textuelles spécifiques, basées sur les modèles qu'il a appris pendant le pré-entraînement.

Pour générer une image, DALL-E reçoit un prompt textuel et génère une image qui correspond à ce prompt, en utilisant les structures et motifs qu'il a appris lors de l'entraînement. Il est important de souligner que les détails précis de l'entraînement de DALL-E, y compris la composition de l'ensemble de données d'entraînement, n'ont pas été rendus publics par OpenAI au moment de ma dernière mise à jour en septembre 2021.

User
Dans la phase de pré-entraînement, les images utilisées ont été créées par des humains, n'est-ce pas ?

ChatGPT
Oui, en général, la phase de pré-entraînement des modèles de machine learning, y compris DALL-E, utilise des données créées par des humains. Pour DALL-E, cela comprendrait probablement une grande variété d'images provenant d'Internet. Ces images pourraient inclure des photographies, des œuvres d'art, des graphiques, des schémas et d'autres types d'images visuelles.

Cependant, il est important de noter que bien que ces images soient créées par des humains, DALL-E n'apprend pas de la même manière qu'un humain le ferait. Il n'a pas une compréhension consciente ou une mémoire des images spécifiques sur lesquelles il a été formé. Au lieu de cela, il apprend à prédire des parties d'images à partir d'autres parties, créant une sorte de "compréhension" abstraite des motifs et des structures d'image.
En outre, bien que DALL-E utilise des images créées par des humains pour son entraînement, il ne sait pas qui a créé une image particulière, ni ne comprend les intentions ou le contexte derrière la création de l'image. Il se contente d'apprendre des modèles à partir des données d'entraînement qu'il reçoit.

User
Si les humains n'avaient jamais créé d'images, DALL-E existerait-il ?

ChatGPT
Dans le contexte de l'apprentissage automatique tel qu'il est conçu aujourd'hui, non, DALL-E n'existerait probablement pas si les humains n'avaient jamais créé d'images. Les modèles d'apprentissage automatique tels que DALL-E sont entraînés sur des données existantes, qui dans ce cas sont des images. Sans ces images, il n'y aurait pas de données pour entraîner DALL-E.

En outre, le concept même d'une "image" est une construction humaine, et les caractéristiques que DALL-E apprend à reproduire dans ses propres générations, comme la forme, la couleur, la texture, etc... sont basées sur la manière dont les humains perçoivent et représentent visuellement le monde.

Il est important de noter que les modèles d'apprentissage automatique tels que DALL-E ne créent pas de manière indépendante ou à partir de rien. Ils apprennent des modèles à partir des données sur lesquelles ils sont formés et utilisent ces modèles pour générer de nouvelles données. Ils sont donc fortement dépendants des données créées par les humains pour leur formation. Cependant, si l'humanité avait développé une autre forme de représentation visuelle ou sensorielle, il est possible que nous aurions pu développer des modèles d'apprentissage automatique pour comprendre et générer des données dans ces formats alternatifs. Mais ces modèles seraient probablement très différents de DALL-E tel que nous le connaissons aujourd'hui.

User
Que se passerait-il si les humains décidaient de ne plus créer d'images, mais de ne générer que des images avec DALL-E ?

ChatGPT
Si les humains cessaient de créer des nouvelles images et utilisaient uniquement des modèles comme DALL-E pour générer des images, cela aurait plusieurs implications.

Stagnation de l'apprentissage des modèles
Les modèles d'apprentissage automatique comme DALL-E sont entraînés sur des données existantes, ce qui signifie qu'ils apprennent à partir des images qui ont déjà été créées. Sans de nouvelles images créées par des humains, l'entraînement de ces modèles pourrait stagner. Ils ne seraient pas en mesure d'apprendre de nouveaux styles, formes, couleurs, concepts, etc., qui pourraient émerger si les humains continuaient à créer des images.

Réduction de la diversité et de l'innovation artistique
Les images générées par DALL-E sont le produit de ce qu'il a appris des images existantes. Si nous nous reposons uniquement sur DALL-E pour générer des images, nous risquons de perdre la diversité et l'innovation qui résultent de la création humaine. Les humains peuvent penser de manière abstraite et conceptuelle, imaginer de nouvelles idées et créer des images qui n'ont jamais été vues auparavant. DALL-E, en revanche, génère des images basées sur les modèles qu'il a appris à partir des images existantes.

Implications éthiques et légales
Il y aurait aussi des questions éthiques et légales à considérer. Par exemple, qui serait le propriétaire des droits d'auteur d'une image créée par une machine ? De plus, la création d'art est une forme d'expression humaine. Si nous déléguions toute création d'image à des machines, cela pourrait avoir un impact sur notre capacité à nous exprimer et à communiquer visuellement.

En somme, bien que les modèles comme DALL-E soient des outils puissants pour la génération d'images, ils ne sont pas un substitut à la créativité humaine. Ils fonctionnent mieux lorsqu'ils sont utilisés en conjonction avec la création humaine, pas comme un remplacement.

User
Tu as dit : “Sans de nouvelles images créées par des humains, l’entraînement de ces modèles pourrait stagner.”
Mais de nouvelles images seraient générées par DALL-E et donc DALL-E serait entraîné à partir des images qu’il a générées, n’est-ce pas ? Que se passerait-il alors ?

ChatGPT
Il est théoriquement possible de ré-entraîner DALL-E sur ses propres générations, mais cela pourrait mener à ce qu'on appelle un "feedback loop" ou une boucle de rétroaction.

Lorsqu'un modèle est entraîné sur ses propres générations, il risque de répéter les mêmes schémas encore et encore, amplifiant les biais et les erreurs présentes dans ses générations précédentes. Au fil du temps, cela pourrait mener à une diminution de la diversité et de la qualité des images générées.
En termes simples, si DALL-E ne fait que s'entraîner sur ses propres créations, il pourrait perdre sa capacité à générer des images qui sont nouvelles ou différentes de ce qu'il a déjà généré. Au lieu de cela, il pourrait commencer à produire des variations de plus en plus petites des mêmes images.

La nouveauté et l'innovation proviennent généralement de l'exposition à de nouvelles idées, de nouvelles perspectives et de nouvelles données. Si DALL-E n'est exposé qu'à ses propres générations, il risque de manquer de nouvelles idées et de nouvelles perspectives que les nouvelles images créées par les humains pourraient apporter.
C'est pour cela qu'en pratique, les chercheurs qui entraînent des modèles d'apprentissage automatique utilisent généralement une variété de données provenant de différentes sources, et pas seulement les générations du modèle lui-même.

User
Dans un premier temps, DALL-E s’est entraîné à partir d’images créées par des humains. Dans une deuxième phase, DALL-E pourrait continuer à s’entraîner, non seulement à partir d’images créées par des humains, mais aussi à partir d’images qu’il aura lui-même générées, n’est-ce pas ?

ChatGPT
Oui, en théorie, DALL-E pourrait être ré-entraîné sur un mélange d'images créées par des humains et d'images qu'il a générées lui-même. Cela pourrait aider à introduire de nouvelles variations et à explorer de nouveaux espaces dans le domaine de la génération d'images.

Cependant, il est important de noter que l'efficacité de cette approche dépendrait de plusieurs facteurs, y compris la qualité et la diversité des images générées par DALL-E, ainsi que la manière dont l'entraînement est effectué. Par exemple, si les images générées par DALL-E sont fortement biaisées ou manquent de diversité, cela pourrait potentiellement influencer le modèle de manière négative lors de l'entraînement.
Il est également important de se rappeler que DALL-E, comme tous les modèles d'apprentissage automatique, est limité par ce qu'il a appris à partir des données d'entraînement. Si DALL-E est principalement formé sur ses propres générations, il pourrait perdre l'accès à la variété et à l'innovation que les images créées par des humains peuvent apporter.

En pratique, la question de l'entraînement de modèles d'apprentissage automatique sur leurs propres générations est un sujet actif de recherche dans le domaine de l'intelligence artificielle, et il n'y a pas de réponse définitive à cette question à l'heure actuelle. Il faudrait mener des expériences pour voir comment cette approche influencerait la performance et le comportement du modèle.

User
Le nombre croissant d’images générées par des IA va certainement avoir pour conséquence que ces images seront très rapidement beaucoup plus nombreuses que les images créées par les humains. Par ailleurs, il ne sera pas possible de distinguer une image créée par un humain et une image générée par l’IA. On peut donc imaginer que les IA comme DALL-E, vont, sans le savoir, finir par utiliser pour leur entraînement, presque uniquement leurs propres images. Qu’en penses-tu ?

ChatGPT
Votre question soulève un point intéressant et pertinent pour l'avenir de l'intelligence artificielle et de la génération d'images.

Premièrement, il est vrai que les modèles de génération d'images, comme DALL-E, pourraient potentiellement produire un nombre d'images qui dépasse largement celui des images créées par des humains. Cependant, il est également vrai qu'il est déjà parfois difficile de distinguer les images générées par l'IA de celles créées par les humains.
Cela dit, le point crucial est que les modèles d'apprentissage automatique ne "s'entraînent" pas de manière autonome ou continue. Ils ne cherchent pas activement de nouvelles données pour s'entraîner. Au lieu de cela, ce sont les chercheurs en IA qui collectent les données d'entraînement et entraînent le modèle. Par conséquent, même si Internet est inondé d'images générées par l'IA, cela ne signifie pas nécessairement que ces images seront utilisées pour l'entraînement de futurs modèles d'IA, à moins que les chercheurs ne décident de le faire.
Il est également important de noter que même si nous arrivons à un point où la majorité des images sont générées par l'IA, cela ne signifie pas nécessairement que ces images sont appropriées ou utiles pour l'entraînement de nouveaux modèles. Les chercheurs en IA doivent faire preuve de discernement lors de la sélection des données d'entraînement pour garantir que le modèle apprend les bonnes choses.
Enfin, si nous en venions à utiliser principalement des images générées par l'IA pour entraîner de nouveaux modèles, cela pourrait en effet conduire à certaines des questions que j'ai mentionnées précédemment, comme le risque de boucles de rétroaction et de perte de diversité et d'innovation.

C'est un domaine complexe avec de nombreux défis et questions ouverts, et il est probable qu'il fera l'objet de nombreuses recherches et débats dans les années à venir.

User
Mais les chercheurs en IA qui sélectionnent les images à des fins d’entraînement des IA ne seront pas capables de différencier les images créées par un humain et les images générées par des IA. Les IA vont donc s’entraîner sans le savoir à partir d’images qu’elles ont elles-mêmes générées. Amusant, non ? Qu’en penses-tu ?

ChatGPT
C'est effectivement une perspective intéressante et un peu surréaliste ! Avec le progrès de la technologie, il devient de plus en plus difficile de distinguer entre les images générées par l'IA et celles créées par des humains. Dans ce scénario, il est possible que, sans le savoir, des chercheurs utilisent des images générées par l'IA pour entraîner de nouveaux modèles d'IA.

Cela pose cependant des questions importantes sur la qualité et la diversité des images générées par l'IA. Comme mentionné précédemment, si ces images manquent de diversité ou contiennent des biais, cela peut potentiellement influencer le modèle d'une manière indésirable. Il peut aussi y avoir un risque de "boucles de rétroaction" où l'IA continue à renforcer les mêmes schémas et perd sa capacité à générer quelque chose de vraiment nouveau ou différent.

D'un autre côté, si les images générées par l'IA sont de haute qualité et diversifiées, elles pourraient effectivement être une ressource utile pour l'entraînement d'autres modèles d'IA. Il est également possible que cela puisse conduire à de nouvelles formes d'art et de créativité que nous n'avons pas encore imaginées.

Dans tous les cas, votre question soulève d'importantes implications pour l'avenir de l'intelligence artificielle et de la génération d'images, et c'est un domaine qui mérite une exploration et une recherche plus approfondies.

User
Ce n’est pas surréaliste du tout ! C’est déjà le cas. Les humains et les chercheurs en IA qui sélectionnent les images à des fins d’entraînement des IA ne sont déjà plus capables de différencier les images créées par un humain et les images générées par des IA. Donnez-nous des raisons. Est-ce déjà la fin des IA génératives d’images, mortes dans l’œuf ?

ChatGPT
Votre question soulève des problématiques complexes et pertinentes pour l'avenir de l'intelligence artificielle et la génération d'images. Cependant, même si nous ne sommes pas toujours en mesure de différencier les images générées par l'IA de celles créées par des humains, cela ne signifie pas nécessairement la "fin" des IA génératives d'images. Il y a plusieurs raisons à cela :

Utilité continue des IA génératives d'images
Même si les images générées par l'IA deviennent indiscernables de celles créées par des humains, cela ne rend pas ces IA inutiles. Au contraire, elles peuvent être utilisées pour générer des images à grande échelle, pour créer du contenu personnalisé, pour concevoir des éléments graphiques en fonction de critères spécifiques, etc.

L'apprentissage se base sur plus que de simples images
Même si un modèle d'IA s'entraîne sur des images générées par l'IA, il apprend à partir d'une multitude de caractéristiques dans ces images, pas seulement le fait qu'elles soient réelles ou générées par l'IA. Par conséquent, l'IA peut continuer à apprendre et à se développer même si certaines de ses données d'entraînement sont générées par l'IA.

Les boucles de rétroaction peuvent être évitées
Les boucles de rétroaction, où une IA renforce continuellement ses propres biais en s'entraînant sur ses propres générations, sont un risque réel. Cependant, ce risque peut être atténué par des techniques de régularisation et en gardant un ensemble diversifié de données d'entraînement.

Évolution et adaptation des techniques de l'IA
Comme avec toute technologie, les techniques d'IA continuent à évoluer et à s'adapter. Même si nous rencontrons des problèmes avec les approches actuelles de génération d'images, cela ne signifie pas que ces problèmes seront permanents. Les chercheurs continueront à innover et à trouver de nouvelles solutions pour améliorer la qualité et la diversité des images générées par l'IA.

User
Et pour ChatGPT, est-ce le cas aussi ? Mort dans l’œuf car condamné à s’entraîner à terme avec ses propres textes qui seront beaucoup plus nombreux que ceux des humains ?

ChatGPT
Votre question soulève des défis importants qui sont déjà pris en compte dans le domaine de l'IA. En effet, le scénario que vous décrivez est similaire à celui que nous avons discuté précédemment pour DALL-E : si un modèle d'IA s'entraîne uniquement sur ses propres générations, cela peut entraîner des boucles de rétroaction et potentiellement diminuer la diversité et la qualité de ses sorties.
Cependant, cela ne signifie pas nécessairement que ChatGPT ou d'autres modèles de langage sont "morts dans l'œuf". Tout comme pour les images, il y a plusieurs raisons à cela.

Variété des données d'entraînement
Même si ChatGPT était utilisé pour générer une grande quantité de texte, cela ne signifie pas nécessairement que ce texte serait utilisé pour son entraînement. Les chercheurs en IA sélectionnent soigneusement les données d'entraînement pour leur qualité et leur diversité. Par conséquent, même si une grande quantité de texte généré par l'IA était disponible, cela ne signifie pas qu'il serait utilisé pour l'entraînement.

Améliorations continues des modèles et des techniques d'entraînement
Les chercheurs en IA continuent à développer de nouvelles techniques pour améliorer la qualité et la diversité des sorties des modèles de langage. Par exemple, de nouvelles techniques de régularisation peuvent être utilisées pour empêcher le modèle de simplement répéter ce qu'il a vu dans les données d'entraînement.

Utilité des modèles de langage
Même si un modèle de langage s'entraînait en partie sur son propre texte, cela ne rend pas nécessairement le modèle inutile. Les modèles de langage peuvent être utilisés pour une variété d'applications, y compris la génération de texte, la traduction automatique, la réponse aux questions, et bien d'autres. Tant que le modèle est capable de remplir ces tâches de manière efficace, il reste utile.

En fin de compte, même si les défis que vous soulevez sont importants, ils ne signifient pas nécessairement la fin des modèles de langage comme ChatGPT. Au contraire, ils soulignent l'importance d'une recherche continue et d'une approche réfléchie à l'entraînement et à l'utilisation de ces modèles.

User
Comment définir cette situation ? Un système en boucle fermée ? As-tu d’autres expressions pour définir ce dont nous avons parlé ?

ChatGPT
Oui, on peut parler d'une forme de « boucle fermée » ou de "boucle de rétroaction" pour décrire une situation où un modèle d'IA s'entraîne sur ses propres générations. Dans cette configuration, les sorties du modèle sont réinjectées en tant qu'entrées pour l'entraînement, créant une boucle.

Cependant, il est important de noter que cette boucle fermée pourrait potentiellement conduire à des "chambres d'écho" ou des "boucles de confirmation", où le modèle continue à renforcer et à répéter ses propres tendances et biais sans introduction de nouvelles informations ou perspectives.

On pourrait aussi décrire cette situation comme un « auto-apprentissage », où le modèle apprend de ses propres sorties. C'est un concept qui existe déjà en machine learning, mais il est généralement utilisé de manière contrôlée et avec des méthodes spécifiques pour éviter les problèmes potentiels de boucles de rétroaction.

Enfin, si cette boucle fermée se produit à grande échelle, avec de nombreux modèles d'IA s'entraînant sur leurs propres générations, on pourrait parler d'une forme de « rétroaction collective » ou de « système d'apprentissage collectif auto-référentiel ». Ces termes ne sont pas largement utilisés à ma connaissance, mais ils pourraient servir à décrire la situation hypothétique que vous avez mentionnée.

User
Pouvez-vous résumer le concept de « système d'apprentissage collectif auto-référentiel » ?

ChatGPT
Le concept de « système d'apprentissage collectif auto-référentiel » est une extrapolation basée sur vos questions précédentes. Il n'est pas largement utilisé ou reconnu dans la communauté de l'IA, mais nous pouvons le définir de la manière suivante en se basant sur la discussion précédente :

Un « système d'apprentissage collectif auto-référentiel » décrirait une situation où un grand nombre de modèles d'apprentissage automatique, comme des IA de génération d'image ou des modèles de langage, s'entraînent non seulement sur des données créées par des humains, mais aussi, de plus en plus, sur des données générées par d'autres modèles d'IA, y compris leurs propres générations.

Dans un tel système, les sorties de ces modèles d'IA sont réinjectées en tant qu'entrées pour l'entraînement de nouveaux modèles ou pour la ré-entraînement des modèles existants. Cela crée une boucle d'apprentissage où l'IA est en grande partie alimentée par ses propres créations.

Ce concept soulève plusieurs défis et questions potentielles, notamment le risque de boucles de rétroaction, où le modèle continue à renforcer ses propres biais sans introduction de nouvelles informations ou perspectives, ainsi que des questions sur la diversité et la qualité des données d'entraînement.

User
Comment avez-vous fonctionné pour choisir les termes de « système d’apprentissage collectif auto-référentiel » ?

ChatGPT
Le choix des termes « système d'apprentissage collectif auto-référentiel » a été effectué en prenant en compte les éléments de notre discussion.
Système est utilisé pour désigner un ensemble d'éléments interconnectés qui interagissent entre eux. Ici, cela fait référence aux nombreux modèles d'IA qui génèrent et consomment des données.
Apprentissage collectif est choisi pour indiquer que l'ensemble de ces modèles d'IA apprennent ensemble, c'est-à-dire qu'ils utilisent les données générées par les autres modèles (et éventuellement par eux-mêmes) pour l'entraînement.
Auto-référentiel est utilisé pour décrire la nature récursive du processus, où les modèles utilisent leurs propres générations comme données d'entraînement.
En logique et en philosophie, quelque chose est dit auto-référentiel s'il fait référence à lui-même.

C'est une tentative de création d'un terme qui capture le concept complexe que vous avez proposé, qui combine l'idée de l'auto-apprentissage, de l'apprentissage en boucle fermée et de la génération de données par l'IA à grande échelle.
Comme mentionné précédemment, ce terme n'est pas largement utilisé ou reconnu dans la communauté de l'IA, mais c'est une proposition pour décrire la situation hypothétique que vous avez évoquée.

AI, création en boucle fermée

Conversation entre un humain et ChatGPT4